感謝陪我一起探索 GCP BigQuery 資料倉儲的你和妳,希望這個過程大家覺得還算有趣,也希望真的有幫助大家更快手 BigQuery。
如果我們把這趟旅程用爬山比喻,我們可能只能算是爬完象山XD 但沒有關係,至少我們已經在路上了!
來回放一下我們一起走過的路:
Day 03: BigQuery 學習地圖
Day 23: Google Cloud Platform (GCP) 上的機器學習地圖,讓你知道你有什麼選擇!
Day 01: BigQuery 是什麼?
Day 02: Database vs. Data warehouse
Day 07: BigQuery 的基本架構
Day 08: 了解BigQuery 收費模式,幫助你選擇合適的方案
Day 09: BigQuery 的四種連接方式介紹 - 如何和Bigquery溝通
Day 14: BigQuery 吃什麼Data?
Day 24: BigQuery ML: 圖解三種寫法 + 常用指令介紹
Day28: BigQuery中的三種監控方式
Day 04: BigQuery 快速上手 - 使用BigQuery sandbox 免信用卡模式 (上)
Day 05: BigQuery 快速上手 - 使用BigQuery sandbox 免信用卡模式 (下)
Day 06: BigQuery 快速上手 - 使用一般專案模式
Day 10: BigQuery 的四種連接方式 - 方法一: Console (實作)
Day 11: BigQuery 的四種連接方式 - 方法二:cloud SDK (實作)
Day 12: BigQuery 的四種連接方式 - 方法三:REST API
Day 13: BigQuery 的四種連接方式 - 方法四:Client libraries (官方建議) (實作)
Day 15: [數據分析實作一] Step 1: 建立 Cloud SQL instance,並上傳 CSV
Day 16: [數據分析實作一] Step 2: 從 Cloud SQL 傳資料到 Cloud storage
Day 17: [數據分析實作一] Step 3: 從 Cloud storage 傳資料到 BigQuery (使用Python client library)
Day 18: [數據分析實作一] Step 4: BigQuery 結合 Data studio 作 Dashboard
Day 25: [機器學習實作一] 在 BigQuery 中建立心臟病發作預測模型
Day 26: [數據分析實作二] 將串流資料(streaming data) 寫入 BigQuery 並建立 Real time Dashboard (上)
延伸思考: CDC (Change data capture) 和 Pub/Sub 差異?
Day 27: [數據分析實作二] 將串流資料(streaming data)寫入 BigQuery 並建立 Realtime Dashboard (下)
延伸思考: cloud composer 和 dataflow 差異?
Day 19: 優化你的BigQuery 查詢,提高查詢效能 (上) (實作) (可選)
Day 20: 優化你的BigQuery 查詢,提高查詢效能並節省費用 (下) (實作)
Day 21: 優化你的BigQuery 查詢,Partitioned 和 Clustered 的使用時機和限制
Day 22: 優化你的BigQuery 查詢,建立 Partitioned 和 Clustered table (實作)
Database(On-premises) to BigQuery
SAP to BigQuery
在實際的應用場景中,我們勢必要把資料傳到 GCP BigQuery,通常會是建立雲地的Data pipeline,你會需要考慮到幾件事:
另外,SAP 是一個比較封閉的系統,通常我們不會直連 Database去串接,因此這裏特別列出一個項目,作法上和直連 Database 會有所不同。
在本系列的練習中,我們運用到了大量的 Data studio 應用。但是在實際的場景中,我們會需要分享這份報表給其他使用者去做互動式的分析,但是不太可能每次使用到的時候都要請使用者給我們 Google 帳號才去分享。
在 [機器學習實作一] 中,將訓練完的模型存放到 Vertext AI model registry,能夠幫助我們在 GCP 上做模型的管理。下一個要思考的問題是,如何在 Vertex AI 上做推論,推論I可以分為兩種:
Batch prediction
Online prediction
Cloud Composer (GCP 版的 Airflow)
在 [數據分析實作一] 和 [數據分析實作二] 的 data pipeline 都還算單純, 但是當 data pipeline 變複雜的時候,我們需要 composer 來幫我們管理 data pipeline的 workflow。
對資源的權限
對資料存取的權限 Cloud DLP
對資料表 rows 與 columns 的權限
管理加密 AEAD 加密
在實際的場景中,數據安全和治理是很重要的一環,因為資料是企業寶貴的資產,這一個部分官方文件整理得很詳細,可以參考。
BigQuery BI Engine 是一項高速內存中分析服務。一樣是秒級別的查詢速度,而且還能節省費用,但是存在使用限制,請閱讀文件。
其中一個應用場景就是建立 materialized view,並使用聚合、過濾條件、內聯接和解除嵌套等功能來提高性能並減少處理數據量。
Google Cloud OnBoard: 開始建構企業資料倉儲
感謝陪我一起探索 GCP BigQuery 資料倉儲的你和妳,我真的非常享受這段時間大量的輸入和輸出的過程,在我們 GCP BigQuery - 探索資料倉儲,開啟你的數位轉型之旅 這系列文章中,只能說是數位轉型的開始,但是我相信至少我們已經在路上了,有興趣一起交流的夥伴,歡迎加入我的 Linkedin 互相學習,一起成長。